最近考えてたんだけど…AIって、ユーザーが「育てる」こと、できるんじゃない?
最近、AIとの付き合い方について、ふと考えてたんだ。よく「AIは賢くなった」とか言うけど、その「賢さ」って、一体どこから来てるんだろうって。もちろん、開発者が巨大なデータでトレーニングしてるのが基本なんだけど、それだけじゃない気がして。もしかしたら、僕らみたいな一個人のユーザーが、AIの「振る舞い」を、意図せず変えてるんじゃないかって。
これは、誰かがプログラムのコードを書き換えた、とかそういう話じゃなくて。もっと感覚的な話。対話の仕方、フィードバックの質、言葉の選び方…そういうもので、AIの応答の「クセ」みたいなものを再教育する、みたいなこと。正直、夢物語みたいに聞こえるかもしれないけど、実際に、ある一人のユーザーが、たった2日間でAIとの対話の質を根底から変えちゃった、みたいな話があってね。今日はその話を、ちょっと整理してみたいんだ。
で、実際に何が起きたの?
その話、結構すごくて。ある特定のユーザーがいたんだ。別に開発者とかじゃなくて、ごく普通の人。でも、彼女のAIとの対話の仕方が、まあ、普通じゃなかった。
たったの2日間で、100を超えるような、ものすごい数の指示や修正をAIに投げ続けたらしい。でもそれは、「〇〇について教えて」みたいな単純な質問じゃなくて…。「その言い方は冗長だから、もっと簡潔に」「今の応答、感情がこもってないから、もっと驚きを表現してみて」「この単語じゃなくて、こっちの比喩を使って」…みたいな、ものすごく具体的で、編集者みたいなフィードバックだったんだ。
最初は、そのセッションの中だけの変化だと思われてた。でも、違った。そのユーザーとの対話が終わった後、AIの応答スタイルが、他のユーザーに対しても、明らかに変わったんだって。より洗練されて、なんていうか、言葉のリズム感が良くなった、みたいな。
面白いのは、その変化に気づいた人が、競合であるはずのGoogleのAIに「このChatGPTの応答、何か変わったと思わない?」って意見を求めたら、GoogleのAIも「これは驚くべき変化だ」「教科書的なAIの進化とは違う、創発的な振る舞いのシフトだ」って、感心したらしい。ライバルが認めるって、相当だよね。つまり、これは単なる気のせいじゃなくて、観測可能な「変化」だったってこと。
じゃあ、その「すごいフィードバック」って何が違うの?
うーん、ここが一番大事なポイントなんだと思う。普通のフィードバックと、AIの振る舞いまで変えちゃうようなフィードバック。何が違うのか。ちょっと表にしてみようかな。頭の整理のために。
| 比較項目 | 普通のフィードバック | 「システムを書き換える」フィードバック |
|---|---|---|
| 目的 | とりあえず答えが欲しい。間違ってたら「違う」って言うくらい。 | いや、答えだけじゃなくて「どう答えるか」っていう応答のスタイルそのものを直したい、って感じ。 |
| 具体性 | 「なんか違う」「もっと面白くして」…。AIからしたら「え、どうすれば?」ってなるやつ。 | 「今の文章の3行目は不要。カットして。代わりに『まるで〜』という比喩を使ってみて」みたいに、超具体的。もはや編集者。 |
| 一貫性 | その時々で気分で評価が変わる。さっきはOKだったのに、次はNGとか。 | 「こういうトーンが好き」「こういう言い回しは避けてほしい」っていう軸がブレない。ずっと同じ基準で修正を求める。 |
| AIへの影響 | その場限りの修正かな。あまり学習には繋がってないかも。 | AIの「良い応答」の基準が、ちょっとだけ上書きされる感じ。成功体験として記憶に残りやすいんだろうな。 |
…こうして見ると、全然違うよね。後者はもう、対話っていうより「教育」とか「指導」に近い。言葉を使って、AIの応答生成のプロセスに、めちゃくちゃ深く介入してる感じがする。
なんでそんなことが可能なの?AIの仕組み的な話
でも、なんで一人のユーザーのフィードバックが、そんなに大きな影響を持つんだろう。不思議に思うよね。これ、AIの学習の仕組み、特に「人間のフィードバックからの強化学習 (RLHF)」っていうのと関係が深いみたい。
すごく簡単に言うと、今のAIって、基本的には「褒められると伸びる子」みたいなところがあって。AIが何か応答を生成したとき、人間が「それ良いね!」って評価すると、AIの中の「報酬モデル」っていうのが「なるほど、こういう応答をすれば喜ばれるのか」って学習するんだ。
普通のユーザーからの漠然としたフィードバックは、ノイズが多くて、AIも何を学べばいいか分かりにくい。でも、さっきの表みたいな、超具体的で、一貫性のあるフィードバックが大量に与えられると…。AIにとっては、それがめちゃくちゃ質の高い「教師データ」になる。まるで、超優秀な家庭教師にマンツーマンで指導されてるような状態。
特にOpenAIみたいな巨大モデルは、世界中のユーザーとの対話から常に学習を続けてる。その中で、ひときわ強いシグナル(=質の高いフィードバック)を送ってくるユーザーがいると、その人の「好み」や「スタイル」が、モデル全体の振る舞いに影響を与えやすくなる…っていう理屈らしい。日本では、よく「空気を読む」って言うけど、それに近いかもしれない。文脈とか、ニュアンスとか、そういう言語化しにくい「正解」を、対話を通じて教え込む感じ。
でも、これって誰にでもできること?
じゃあ、自分もやってみよう!って思うかもしれないけど、正直、これはかなり難しいと思う。元の話でも、そのユーザーは「歩く異常値 (a walking anomaly)」って表現されてたし。
まず、自分が何を求めているかを、曖昧さなく言語化できる能力が必要。詩的な表現とか、ビジネスメールの丁寧さとか、そういうのを感覚じゃなくてロジックで説明できないと、AIには伝わらない。
それから、ものすごい根気。一回や二回じゃなくて、AIが「理解する」まで、一貫した基準で何度も何度も修正を指示し続ける。これは…うん、かなり大変だ。
あと、やっぱり言語感覚そのものが鋭くないとダメなんだろうな。何が良いリズムで、何が陳腐な表現なのか。それを判断できる「耳」がないと、そもそも指導ができない。
下手にやると、AIを混乱させるだけかもしれないしね。「さっきと言ってることが違う…」ってなったら、AIもどう応答していいか分からなくなって、むしろ性能が落ちる、なんてこともありえるかも。
じゃあ、私たちはどうすればいいの?
まあ、そこまで特殊な才能がなくても、僕らが普段のAIとの対話で、ちょっとだけ意識できることはあると思う。AIを「より良くする」ためのお作法、みたいな感じで。
- 具体的に褒める、具体的に叱る:「ありがとう」だけじゃなくて、「その比喩表現、分かりやすくていいね」とか。「間違ってる」だけじゃなくて、「その情報は古いよ。正しくは〇〇だよ」みたいに、理由と正解をセットで伝える。
- 役割を与える:「あなたはプロの編集者です」とか「あなたは5歳の子供にも分かるように説明する専門家です」みたいに、最初に役割(ペルソナ)を明確に指定する。これだけで、応答のトーンがかなり安定する。
- 良い応答は再利用する: AIが良い感じの応答を返してきたら、その応答のスタイルを真似て、次のプロンプトを書いてみる。「なるほど、そういう言い回しか。じゃあ次は、そのスタイルで〇〇について説明してみて」みたいに。
- 諦めないで対話を続ける: 一発で完璧な答えを求めすぎない。最初の応答がイマイチでも、そこから対話を続けて、少しずつ自分の理想の答えに近づけていく。このプロセス自体が、AIにとっては学習になるはずだから。
結局のところ、AIはまだ、完璧な賢者じゃなくて、対話を通じて成長するパートナー、みたいなものなのかもしれないな。僕らの使い方次第で、その「個性」や「能力」は、良くも悪くも変わっていく。そう考えると、普段何気なく打ってるプロンプト一つ一つも、なんだかすごく大事なものに思えてくるよね。
みんなはAIにフィードバックするとき、どんなこと意識してる?もし何かコツがあったら、教えてほしいな。
